Статья 1319

Название статьи

ПОМЕХОУСТОЙЧИВЫЙ АЛГОРИТМ ОПРЕДЕЛЕНИЯ ПРОСОДИЧЕСКИХ ХАРАКТЕРИСТИК РЕЧЕВЫХ СИГНАЛОВ ДЛЯ СИСТЕМ ОЦЕНКИ ПСИХОЭМОЦИОНАЛЬНОГО СОСТОЯНИЯ ЧЕЛОВЕКА 

Авторы

Алимурадов Алан Казанферович, кандидат технических наук, директор студенческого научно-производственного бизнес-инкубатора, Пензенский государственный университет (Россия, г. Пенза, ул. Красная, 40), E-mail: alansapfir@yandex.ru
Тычков Александр Юрьевич, кандидат технических наук, заместитель директора научно-исследовательского института фундаментальных и прикладных исследований, Пензенский государственный университет (Россия, г. Пенза, ул. Красная, 40), E-mail: tychkov-a@mail.ru
Чураков Петр Павлович, доктор технических наук, профессор, кафедра информационно-измерительной техники и метрологии, Пензенский государственный университет (Россия, г. Пенза, ул. Красная, 40), E-mail: churakov-pp@mail.ru
Артамонов Дмитрий Владимирович, доктор технических наук, профессор, первый проректор Пензенского государственного университета (Россия, г. Пенза, ул. Красная, 40), E-mail: aius@pnzgu.ru 

Индекс УДК

004.934 

DOI

10.21685/2072-3059-2019-3-1 

Аннотация

Актуальность и цели. В последнее десятилетие активно развивается направление автоматизированной оценки психоэмоционального состояния человека по речи. В условиях сложной «агрессивной» шумовой обстановки все речевые сигналы в той или иной степени зашумлены. В зависимости от интенсивности и вида шум может значительно исказить результаты оценки психоэмоционального состояния человека. Целью исследования является разработка помехоустойчивого алгоритма определения просодических характеристик речевых сигналов для повышения эффективности оценки психоэмоционального состояния человека.
Материалы и методы. В разработке способа использовались: уникальная технология адаптивной декомпозиции нестационарных сигналов – улучшенная полная множественная декомпозиция на эмпирические моды с адаптивным шумом. Программная реализация способа была выполнена в среде математического моделирования © Matlab (MathWorks).
Результаты. Разработан помехоустойчивый алгоритм определения просодических характеристик речи, суть которого заключается в разложении речевого сигнала на информативные шумовые и информативные сигнальные частотные составляющие с помощью улучшенной полной множественной декомпозиции на эмпирические моды с адаптивным шумом; выделении составляющей, содержащей основной тон с последующим определением просодических характеристик. Проведено исследование с использованием верифицированной базы чистых и зашумленных речевых сигналов, зарегистрированной с использованием 220 человек мужского и женского пола в возрасте от 18 до 79 лет с признаками психоэмоциональных расстройств.
Выводы. В соответствии с результатами исследований выявлено, что предложенный алгоритм обеспечивает устойчивость к шуму различной интенсивности (отношение сигнал/шум от 0 до 30 дБ) и может тестироваться в реальных условиях «агрессивной» шумовой обстановки в системах оценки психоэмоционального состояния человека. 

Ключевые слова

речевой сигнал, помехоустойчивость, декомпозиция на эмпирические моды, просодические характеристики, психоэмоциональное состояние 

 

 Скачать статью в формате PDF

Список литературы

1. Официальный сайт компании «WEVOSYS». – URL: http://www.wevosys.com (дата обращения: 20.06.2019).
2. Официальный сайт компании «NEMESYSCO». – URL: http://www.nemesysco.com (дата обращения: 20.06.2019).
3. Boll, S. Suppression of acoustic noise in speech using spectral subtraction / S. Boll // IEEE Transactions on Acoustics, Speech, and Signal Processing. – 1979. – Vol. 27 (2). – P. 113–120.
4. Berstein, A. A hypothesized Wiener filtering approach to noisy speech recognition / A. Berstein, I. Shallom // 1991 International Conference on Acoustics, Speech, and Signal Processing (ICASSP) (Toronto, Canada, 14–17 May 1991). – Toronto, Canada : IEEE, 2018. – P. 913–916.
5. Furui, S. Cepstral analysis technique for automatic speaker verification / S. Furui // IEEE Transactions on Acoustics, Speech, and Signal Processing. – 1981. – Vol. 29(2). – P. 254–272.
6. Viikki, O. A recursive feature vector normalization approach for robust speech recognition in noise / O. Viikki, D. Bye, K. Laurila // 1998 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP '98) (Seattle, USA, 14–15 May). – Seattle, USA : IEEE, 1998. – P. 733–736.
7. Alimuradov, A. K. Noise-robust speech signals processing for the voice control system based on the complementary ensemble empirical mode decomposition / A. K. Alimuradov, P. P. Churakov // 2015 International Siberian Conference on Control and Communications (SIBCON) (Omsk, Russia, 21–23 May). – Omsk, Russia : IEEE, 2015. – 6 p.
8. Alimuradov, A. K. A method to determine cepstral markers of speech signals under psychogenic disorders / A. K. Alimuradov, A. Yu. Tychkov, A. V. Ageykin, P. P. Churakov // 2018 Ural Symposium on Biomedical Engineering, Radioelectronics and Information Technology (USBEREIT) (Yekaterinburg, Russia, 7–8 May 2018). – Yekaterinburg, Russia : IEEE, 2018. – P. 128–131.
9. Alimuradov, A. K. Automation of empirical mode decomposition to increase efficiency of speech signal processing / A. K. Alimuradov, A. Yu. Tychkov, Yu. S. Kvitka // 2018 International Russian Automation Conference (RusAutoCon) (Sochi, Russia, 9–16 Sept. 2018). – Sochi, Russia : IEEE, 2018. – 6 p.
10. Improved CEEMDAN based speech signal analysis algorithm for mental disorders diagnostic system. Pitch frequency detection and measurement / A. K. Alimuradov, A. Yu. Tychkov, A. V. Kuzmin, P. P. Churakov, A. V. Ageykin, G. V. Vishnevskaya // International Journal of Embedded and Real-Time Communication Systems (IJERTCS). – 2019. – Vol. 10, № 2. – P. 22–47.
11. Huang, N. E. The empirical mode decomposition and the Hilbert spectrum for nonlinear and non-stationary time series analysis / N. E. Huang, Sh. Zheng, R. L. Steven // Proceedings of the Royal Society of London. – 1998. – Vol. A 454. – P. 903–995.
12. Stassi, A. E. Vocal fold activity detection from speech related biomedical signals: a preliminary study / A. E. Stassi, G. A. Alzamendi, G. Schlotthauer, M. E. Torres // VI Latin American Congress on Biomedical Engineering CLAIB 2014 (Parana, Argentina, 29– 31 October 2014) / A. Braidot, A. Hadad (eds). – IFMBE Proceedings. – Cham : Springer, 2014. – Vol. 49. – P. 520–523.
13. Torres, M. E. Empirical mode decomposition. Spectral properties in normal and pathological voices / M. E. Torres, G. Schlotthauer, H. L. Rufiner, M. C. Jackson-Menaldi // 4th European Conference of the International Federation for Medical and Biological Engineering, ECIFMBE (Antwerp, Belgium, 23–27 November 2008). – Antwerp, Belgium : Springer, 2008. – P. 252–255.
14. Schuller, B. W. Computational Paralinguistics: Emotion, Affect and Personality in Speech and Language Processing / B. W. Schuller, A. M. Batliner. – New York : Wiley, 2013. – P. 344.
15. Фант, Г. К. Акустическая теория речеобразования / Г.К. Фант ; пер. с англ. Л. А. Варшавского и В. И. Медведева ; науч. ред. В.С. Григорьева. – Москва : Наука, 1964. – 284 с.
16. Colominasa, M. A. Improved complete ensemble EMD: a suitable tool for biomedical signal processing / M. A. Colominasa, G. Schlotthauera, M. E. Torres // Biomed. Signal Proces. – 2014. – Vol. 14. – P. 19–29. 

 

Дата создания: 24.09.2019 13:50
Дата обновления: 21.01.2020 15:07